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主动 地 纠 错 式 半 监 督 聚 类 社区 发 现 算法 
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(天 津 科 技 大 学 计算 机 科学 与 信息 工程 学 院 ， 天 津 300457) 


fi 要 : 经 典 的 无 监督 聚 类 算法 快速 、 简 单 且 可 以 直接 对 大 规模 数据 集 进 行 划分 ， 但 是 由 于 网 络 结构 较为 复杂 ， 划 分 
的 准确 度 并 不 高 。 为 此 ， 提 出 一 种 基于 主动 学 习 的 纠 错 式 半 监 督 社区 发 现 算 法 ESCD (error correction semi-supervised 
community detection algorithm )， 将 传统 的 K-means 算法 进行 分 步 计 算 ， 并 且 在 聚 类 的 过 程 中 加 入 成 对 约束 。 根 据 先 验 
信息 保留 正确 的 划分 ， 纠 正 错 误 的 划分 来 改变 网 络 的 连接 关系 ， 使 网 络 具 有 更 明显 的 块 结 构 ， 当 节点 与 聚 类 中 心 的 距 
离 不 再 变化 时 划分 结束 。 实 验 结果 表明 ， 与 现 有 的 社区 发 现 算 法 相 比 ，ESCD 算法 具有 更 高 的 精度 ， 且 所 需 的 监督 信 
息 远 远 小 于 其 他 半 监 督 算 法 。 
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Active error-correcting community discovery algorithm based on semi-supervised clustering 
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Abstract: The classical unsupervised clustering algorithm is fast, simple and suitable for mining large-scale datasets, and it can 


also directly divide communities. However, due to the complexity of communities, the classification accuracy of the algorithm 


is not ideal. Therefore, this paper proposes an error-correcting semi-supervised community detection algorithm (ESCD) based 


on active learning. It can calculate the traditional k-means algorithm step by step, and adding pairs of constraints in 


the clustering process. In order to preserve the correct partitioning according to the prior information, we correct the wrong 
division to change the connection of the network. So that the network has a more obvious block structure in the process of 
changing the distance between nodes and cluster centers. The results of the experiment show that compared with the existing 
community discovery algorithms, the ESCD algorithm has higher accuracy with less supervisory information than other semi- 
supervised algorithms. 


Key words: active learning; error correction semi-supervised community discovery; K-means algorithm; constraints in pairs 


算法 外 是 MacQueen 于 1967 年 提出 的 一 种 经 典 的 聚 类 算法 ， 其 
特点 高 效 简洁 ， 被 广泛 应 用 于 数据 聚 类 中 ， 在 网 络 数据 的 处 理 
近年 来 ， 随 着 对 复杂 网 络 研 究 的 深入 ， 研 究 者 们 发 现 很 多 ”中 也 得 到 成 功 应 用 。 该 算法 的 核心 思想 为 找 出 K 个 聚 类 中 心 ， 
实际 网 络 都 是 由 社区 构成 的 ， 复 杂 网 络 内 部 连接 紧密 的 节点 组 ” ”使 得 每 个 数据 点 和 与 其 最 近 的 聚 类 中 心 的 平方 距离 和 被 最 小 化 。 
成 的 集合 就 称 之 为 社区 ， 同 一 社区 内 部 的 节点 之 间 联 系 较为 密 然而， 真实 的 网 络 结构 的 复杂 度 较 高 ， 社 区 属性 模糊 ， 无 监督 
切 ， 而 不 同 社区 之 间 的 联系 较为 松散 中。 社区 发 现 是 很 多 领域 ” 聚 类 不 包含 任何 的 先 验 信息 ， 划 分 结果 仅 根 据 节点 特征 向 量 的 
的 研究 热点 ， 因 为 社区 发 现 可 以 更 准确 地 定位 社会 群体 ， 有 助 ”距离 来 计算 ， 噪 点 或 不 规则 的 拓扑 结构 对 节点 的 类 归属 影响 很 
于 将 具有 相似 兴趣 的 相关 人 员 联 系 起 来 ， 以 便 与 有 共同 兴趣 的 大 ， 因 此 完全 不 包含 先 验 信息 的 聚 类 算法 稳定 度 较 差 ， 真实 网 
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BEARS) AAT A A Ab RE, 络 通常 结构 较为 复杂 ， 社 区 内 部 连接 不 够 紧密 而 社区 之 间 的 连 
复杂 网 络 聚 类 本 质 上 是 图 的 划分 问题 时， 因此 使 用 传统 聚 。” 接 却 很 多 ， 不 清晰 的 网 络 结构 导致 部 分 位 于 社区 边界 的 节点 无 
类 算法 对 复杂 网 络 进行 聚 类 在 社区 发 现 领域 得 到 了 广泛 应 用 ， 法 正确 的 划分 。 不 包含 任何 先 验 信 息 的 社区 发 现 结果 依赖 于 初 


例如 , K-means、K-mediods、 谱 聚 类 和 图 聚 类 等 。 其 中 K-means 台 聚 类 中 心 的 选取 且 当 网 络 结构 较 复 杂 时 划分 准确 度 会 大 幅度 
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降低 ,因此 部 分 半 监 督 社区 发 现 算法 被 提出 S71。 半 监 督学 习 同 
更 用 了 标记 数据 和 未 标记 数据 可 以 大 大 提升 学 习 的 效率 四 ， 
但 是 现 有 的 半 监督 算法 需要 大 量 的 标记 数据 ， 而 且 无 法 真正 的 
改变 复杂 网 络 的 结构 ， 仍 存在 效率 较 低 的 缺陷 。 
根据 上 述 存在 的 问题 ， 本 文 提出 一 种 主动 地 纠 错 式 半 监督 


社区 检测 算法 ESCD (error correction semi-supervised community 
detection algorithm )。 将 主动 学 习 的 思想 ， 运 用 在 半 监 督 聚 类 算 
法 中 。 本 文 将 传统 的 K-means 算法 进行 分 步 计算 ， 将 每 一 步 的 
距离 迭代 结果 视 为 粗 聚 类 结果 ， 并 且 根 据 当 前 粗 聚 类 结果 计算 

点 隶属 度 ; 主动 的 添加 少量 先 验 信息 ， 通 过 加 入 逻辑 推理 充 
分 利用 先 验 信息 ; 改变 了 复杂 网 络 的 结构 ， 得 到 准确 的 划分 结 
果 。 在 本 文 提 出 的 ESCD 算法 中 ， 充 分 利用 了 KK-means 算法 每 
一 步 的 迭代 过 程 ， 并 且 可 以 在 每 一 步 的 距离 迭代 中 自动 地 纠正 
粗 聚 类 结果 中 划分 错误 的 节点 ， 使 复杂 网 络 具 有 更 加 清晰 的 块 
结构 。 实 验 结果 证 明 ESCD 算法 具有 更 高 的 精度 ， 并 且 大 大 提 
升 了 原 有 半 监 督 聚 类 算法 的 效率 。 


1 ”相关 工作 


1.1 K-means 算法 

本 文采 用 的 是 基于 划分 的 无 监督 聚 类 方法 中 应 用 最 广泛 的 
K-means 算法 外, 采用 距离 作为 相似 性 的 评价 指标 ,把 数据 集 划 
分 成 K 个 互 不 交 炙 的 类 艇 ,得 到 类 内 高 度 相似 ， 类 间 相 似 度 低 
的 划分 结果 。 

给 定 一 个 网 络 图 G=(V,E)， 其 中 节点 的 集合 为 
V = {VV Vb: PERN RA A E = {€,,€,,...5€,} o E 
BEA = [ay Tien 可 以 直观 的 反应 节点 之 间 的 连接 关系 , WR v, A 
vj 之 间 存 在 链接 则 4; =1; 如 果 v; 和 vj 之 间 不 存在 链接 则 
aj =0 。 在 聚 类 的 过 程 中 ， 将 邻接 矩阵 作为 算法 的 输入 ，n 个 
节点 的 邻接 矩阵 向 量 作为 节点 的 n 维 特征， 根据 节点 与 个 聚 
类 中 心 Ci) 的 多 次 距离 欠 代 ， 直 到 划分 结果 不 再 改变 ， 得 到 最 终 


的 社区 划分 结果 。 距 离 用 式 () 来 度量 ， 其 中 dC) EX; 


和 C) 之 间 的 欧 氏 距离 。 


d(xX,c))= [S (xa Cg) i127 JH Zea (]) 
gal 


1.2 半 监 督学 习 算法 

半 监 督学 习 中 辨别 信息 形式 有 多 种 ， 最 常见 的 是 样本 类 标 
号 ， 即 明确 指定 每 个 样本 的 类 别 。 除 类 标号 之 外 ， 还 有 样本 之 
间 的 成 对 约束 ， 成 对 约束 是 指 两 个 样本 之 间 的 一 种 关系 ， 包 括 
正 约 数 和 负 约 束 。 两 个 样本 的 类 标号 相同 时 ， 他 们 之 间 存 在 一 
种 正 约束 关系 , 反之 ,两 个 样本 之 间 存 在 一 种 负 约束 关系 四。 相 
较 于 类 标号 ， 成 对 约束 对 先 验 信 息 的 需求 较 小 ， 而 且 更 容易 获 
得 。 例 如 ，Liu 等 人 外 利用 标签 传播 方法 ， 将 己 标 注 的 节点 类 标 
号 向 周围 邻居 进行 传播 .Silva 等 人 00 基 于 模块 度 最 大 化 的 准则 
将 半 监 督 方法 融入 社区 发 现 中 。Zhang 等 人 0 直接 将 节点 的 成 
对 约束 加 到 待 分 解 的 邻接 矩阵 上 。Yang 等 人 0 利用 半 监 督 的 潜 


在 空间 图 正则 化 方法 建立 了 一 个 统一 的 社区 检测 框架 。 上 述 方 
法 存在 部 分 共同 的 缺陷 ， 就 是 半 监 督学 习 的 效率 较 低 ， 

如 图 1 所 示 ， 在 一 次 完整 的 社区 发 现 算法 框架 之 外 ， 以 随 
机 的 方式 将 成 对 约束 混入 网 络 中 ， 通 过 三 对 成 对 约束 的 指导 才 
将 节点 5 划分 到 正确 社区 内 。 显 然 这 种 随机 的 标注 方式 是 元 余 
且 低 效 的， 而 且 框 架 外 的 添加 模式 局 限 了 半 监 督学 习 的 效率 。 
主要 原因 如 下 : a) 标记 数据 添加 的 位 置 在 完整 的 算法 框架 外 ， 
一 次 完整 的 算法 包括 多 次 迭代 ， 这 种 添加 方式 没有 充分 利用 每 
一 步 的 迭代 过 程 ; b) 先 验 信息 通过 随机 标注 的 方式 干预 社区 的 
划分 ， 需 要 大 量 的 先 验 信息 ， 但 通常 人 工 标注 的 先 验 信 息 很 难 
获得 而 且 代 价 晶 贵 ; c) 即使 如 入 大 量 的 先 验 信息 依旧 无 法 真正 
干预 网 络 的 正确 划分 ， 即 随机 加 入 的 标签 并 不 是 网 络 划分 最 需 
要 的 那 部 分 ; d) 成 对 约束 只 是 指导 了 部 分 节点 的 划分 ,并 没有 
真正 的 改变 网 络 的 复杂 结构 ， 因 此 无 法 从 根本 使 网 络 拥有 更 明 
显 的 块 结构 。 


(d) (e) (f) 
图 1 半 监 督 算 法 成 对 约束 添加 过 程 
寻 此 本 文 利 用 相对 容易 获得 的 成 对 约束 作为 标记 数据 ， 将 
先 验 信息 融入 分 步 的 距离 计算 中 ， 改 变 了 现 有 方法 在 框架 外 加 
入 先 验 信息 的 模式 ， 框 架 内 的 分 步 添加 模式 可 以 提高 算法 的 效 
率 ， 同 时 也 提高 了 成 对 约束 的 应 用 率 ， 其 次 本 文 将 网 络 中 一 些 
重要 节点 之 间 的 链接 进行 断 开 或 者 连接 ， 改 变 了 网 络 结构 ， 使 
网 络 结构 更 加 清晰 ， 最 后 为 了 保证 成 对 约束 的 充分 利用 ， 本 文 
加 入 逻辑 推理 1 扩大 了 成 对 约束 的 范围 ,， 大 大 提升 了 成 对 约束 
的 添加 效率 。 为 了 避免 初始 聚 类 中 心 随 机 选取 造成 的 节点 归 类 
不 稳定 ， 同 时 保证 先 验 信息 的 充分 利用 ， 用 半 监 督 的 聚 类 中 心 
初始 化 原则 ， 第 2 节 中 会 对 初始 聚 类 中 心 的 选取 进一步 说 明 。 
1.3 ”节点 标注 方法 

为 了 弥补 半 监 督学 习 无 法 标注 最 有 价值 的 数据 的 缺陷 ， 主 
动 学 习 的 策略 被 运用 在 社区 发 现 中 。 通 过 制定 学 习 策略 自动 、 
有 效 地 选 出 最 有 指导 价值 的 数据 节点 ， 其 次 由 该 领域 的 专家 对 
获取 的 数据 节点 进行 确认 、 标 志 , 并 加 入 到 标签 数据 集中 。Yang 
等 人 [3 在 2015 年 提出 了 基于 非 负 矩阵 分 解 的 主动 地 半 监 督 社 
区 发 现 模型 ， 该 模型 可 以 自动 选择 网 络 中 最 不 稳定 的 链接 ， 通 
WT SEAR Ti BY fs EE TT PTE. Cheng 等 人 0 通过 网 
络 加 权 方 法 找到 网 络 中 重要 度 高 的 节点 进行 标注 ， 进 而 高 效 利 
j 先 验 信息 。 但 是 信息 焙 的 标注 方式 ， 需 要 得 到 社区 成 员 对 应 


see 
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的 概率 分 布 ， 这 在 其 他 的 社区 发 现 算法 中 是 很 难得 到 的 ， 所 以 
这 种 节点 标注 方式 的 选取 具有 一 定局 限 性 。 
因此 本 文 提 出 一 种 高 效 通 用 的 节点 标注 方式 ， 通 过 计算 节 
点 的 隶属 度 来 判断 节点 在 本 社区 的 稳定 程度 。 社 区 中 节点 的 外 
oko ， 即 与 该 节点 相连 的 节点 中 不 属于 本 社区 的 个 数 ， 节 点 
的 内 度 三 ,， 即 与 该 节点 相连 的 节点 属于 本 社区 的 个 数 。 首 先 定 
义 粗 聚 类 结果 中 每 个 社区 隶属 度 MD (degree of 
membership )， 假 设 在 第 一 次 粗 聚 类 的 结果 中 ， 节 点 1 属于 社区 


在 kk， 那 么 节点 在 其 所 属 社区 的 隶属 度 表示 为 : 
_ AN, (i) 
MD, (i) = AKG (2) 


其 中 : AN, (i) 表 示 社 区 k 内 所 有 与 节点 i 相连 的 节点 ， 等 同 于 社 
Rk AW ATM ARE z();,，AN (让 表示 节点 的 所 有 邻接 节点 
(Adjacency Node), SEFIA i WE. 

AN, (i) = 20 (3) 
区 中 节点 的 隶属 度 来 寻找 边界 节点 和 中 心 
节 社区 中 隶属 度 最 高 的 节点 作为 中 心 节 点 ， 因 为 隶属 
度 最 高 的 节点 通常 是 一 个 社区 中 最 稳定 的 节点 ， 它 的 本 社区 属 
性 最 强 而 且 与 其 他 社区 的 联系 最 弱 。 同 理 ， 选 取 社 区 中 隶属 度 


三 


最 低 的 节点 作为 边界 节点 。 

主动 地 纠 错 式 半 监督 社区 发 现 算法 

本 文 提 出 的 ESCD 算法 可 以 主动 地 选择 最 不 确定 的 节点 ， 
加 入 少量 的 标记 数据 提高 社区 划分 的 准确 度 ， 有 具体 思路 如 下 : 


a) 根据 已 知 的 先 验 信 息 选 择 初始 聚 类 中 
b) 将 K-means 算法 进行 分 步 计 算 ， 其 中 包括 : 


a Bt — 4S et 
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> 


` 
Lio 


| 
张 贤 坤 ， 等 : 主动 地 纠 IO Ve 


中 心 选 择 策 略 ， 它 使 ) 
取 。 包 含 s 个 不 同 标签 的 数 ] 


平均 值 作为 该 类 的 初 


始 聚 类 上 


Jin BH 


EA 


i 


类 中 心 距离 最 远 的 节点 ， 这 种 初 


随机 性 ,保证 了 所 选中 心 点 的 分 散 性 ,为 了 保 i 
在 后 续 的 实验 中 采取 十 次 的 


的 实验 结果 。 


22 ”算法 实现 


本 文 提 出 的 主动 地 纠 错 式 


体 步 又 如 下 : 


输入 : 网 络 G=(V,E)， 邻 接 和 矩阵 A， 社 


集 辅助 初始 聚 类 中 心 {cj} 的 选 
于 中 ， 取 同一 类 标签 几 个 节点 的 
Habs, 总 共 选 取 s 个 初始 
剩余 的 K-s 个 聚 类 中 心 从 无 标签 数据 外 


聚 类 中 心 。 


RP, wad 


x 
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台 聚 类 中 心 的 选取 方式 避免 了 


人 


ii; 


FE 实验 的 


准 


监督 社 
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输出 : 


社区 集 Sete ={c,,--4¢,} 。 


区 检测 算法 ESCD， 


KÉK, MARIE 


确 性 ， 


聚 类 结果 的 NMI 平均 值 作 为 最 终 


a) 按照 上 述 初始 聚 类 中 心 选 取 原 则 选取 K 个 节点 作为 初 
始 聚 类 中 心 {cj} ，j=12,.…,k; 


b) 对 剩余 的 每 个 节点 测量 其 


d(%,C;)， 并 把 它 归 
新 聚 类 中 心 ; 


BE 


o 2a% ŽA j 


到 每 个 


中 包含 的 节点 特征 和 


"A 


c) 根据 上 一 步 中 的 归 
ub } 和 边界 节点 { Vimar }, 根 j 


社区 的 中 心 节点 { V 


1 
1l 
i=l 


类 


+ 四 
结果 ， 


KA 了 中 的 节点 个 数 
找 出 当前 粗 聚 类 结果 中 每 个 


居 先 验 信息 中 


聚 类 中 心 的 距离 


P 心 的 一 类 ， 并 且 按 照 公 式 (4) 更 


(4) 


must-link 和 cannot-link 以 及 三 个 规则 实现 对 这 些 节点 之 间 的 边 
的 重 构 ， 从 而 更 新 网 络 结构 ， 得 到 新 的 邻接 矩阵 An ， 


h=1,2,....,Iter ; 


(9) 根 据 每 次 的 节点 距离 划分 结果 ， 计 算 当前 划分 结果 社区 d) 用 更 新 后 的 邻接 矩阵 A" 重新 计算 各 个 节点 到 聚 类 中 心 
k 中 每 个 节点 的 隶属 度 MD(i)。 的 距离 ， 并 把 它 归 到 最 近 的 聚 类 中 心 那 一 类 ， 再 次 按照 式 〈4) 
(b) 根 据 节 点 隶属 度 主动 的 添加 先 验 信息 ， 并 利用 成 对 约束 ”更 新 聚 类 中 心 {c)}， 
进行 逻辑 推理 ， 从 而 改变 邻接 矩阵 结构 和 聚 类 索引 。 e) 重复 c)d) 步 直至 节点 的 归 类 不 再 变化 ， 算 法 结束 。 
(利用 改变 后 的 邻接 矩阵 再 次 聚 类 ， 直 到 每 个 节点 和 其 所 ”2.3 主动 地 成 对 约束 添加 方式 
盟 社 区 聚 类 中 心 的 距离 不 再 变化 后 停止 迭代 。 在 聚 类 的 过 程 中 发 现 ， 被 划分 错误 的 那些 节点 都 具有 一 些 
0) 得 到 最 终 社区 划分 结果 。 < 同 的 特征 ， 尤 其 是 当 网 络 的 模块 结构 比较 模糊 的 时 候 。 导 致 
下 面 将 对 上 述 步 又 里 的 关键 技术 进行 详细 分 析 。 节点 划分 错误 的 主要 原因 为 以 下 两 点 : a) 社 区 之 间 的 连接 较 多 ， 
2.1 初始 聚 类 中 心 选取 原则 没有 明显 边界 ， 导 致 网 络 结构 不 够 清晰 ， 而 且 这 些 连 接 的 端点 


K-means 算法 依赖 于 初始 聚 类 中 心 的 选择 。 大 部 分 研究 集 
可 


大 部 分 属于 各 社 


中 在 如 何 选取 聚 类 中 心 ， Kaufman 等 0 提出 了 选取 数据 点 后 
密度 最 高 作为 初始 聚 类 中 心 的 优化 方法 ，Rodriguez 等 09 基 于 


较 大 ， 内 度 Zin 较 小 ， 说 明 这 些 节点 与 本 社 
区 内 的 节点 连接 较 少 。 


多 ， 与 本 社 


聚 类 中 心 比 其 近邻 样本 分 布 密集 程度 更 高 ， 而 且 与 其 他 密度 较 
高 样本 距离 相对 较 远 的 特点 ， 提 出 了 快速 搜索 密度 峰值 算法 ， 
以 密度 峰值 点 作为 初始 聚 类 中 心 ; Basu 等 人 0 利用 标签 数据 对 
均值 聚 类 算法 进行 初始 化 ， 提 出 了 两 种 半 监 督 聚 类 算法 ， 冷 等 
3 提出 一 种 新 颖 的 初始 中 心 选择 策略 ， 它 使 用 标签 数据 集 辅助 
选取 初始 点 ， 保 证 每 个 类 中 至 少 有 一 个 数据 对 象 被 选取 。 


区 边界 的 节点 ， 就 可 


的 清晰 度 ， 并 且 对 社 


否 连接 或 断 开 ， 通 过 这 样 3 


区 的 边界 点 ;b) 社 


大 | 


E 动 学 习 
区 的 正确 划分 


很 重要 的 意义 。 


区 内 的 一 些 节点 的 外 度 Zour 
区 外 的 节点 连接 较 
此 只 要 寻找 到 这 些 位 于 社 
以 通过 成 对 约束 来 指导 这 些 节 点 间 的 边 是 
的 方法 可 以 高 效 地 提升 社区 


根据 2.2 的 叙述 ， 基 于 每 次 的 聚 类 结果 加 入 少量 的 标签 ， 
将 先 验 信息 以 成 对 约束 的 形式 加 入 其 中 。 将 一 次 完整 的 K- 


means 算法 分 步 计算 ， 基 于 


为 了 避免 初始 聚 类 中 心 随机 选取 造成 的 算法 不 稳定 ， 采 用 
一 种 半 监督 的 初始 化 方案 ，Gu 等 人 09 提 出 一 种 半 监 督 的 初始 


了 使 每 一 个 获得 的 先 验 信息 发 挥 


第 


标记 数据 ， 将 先 验 信息 以 成 对 约束 的 


次 的 距离 计算 结果 加 入 少量 的 


式 混入 邻接 矩阵 中 ， 为 
其 最 大 的 作用 ， 采 取 主 


动 地 邻 
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接 节 点 选择 方式 来 添加 成 对 约束 。 算 法 框架 图 如 图 2 所 示 ， 这 
个 主动 地 半 监 督 的 过 程 主要 遵循 以 下 三 个 规则 。 


vty 


主动 地 半 监 督 K-means 聚 类 算法 
计算 | TG 
| Err 
初始 | Jaz] | [EFAN 1 AR| | 重新 
ma) še] | | | 
OL oi LS aan ket ope] | PL Ea 
te) Plea >) P 
we; f+ | | al 
APARE T 类 
2 | 。 生动 网 站 上 规则 
站 只 | Sees cee 
图 2 主动 地 半 监 督 社区 发 现 算法 框架 


1) 选择 规则 

根据 提出 的 半 监 督 聚 类 模型 ， 基 于 第 一 次 的 粗 聚 类 结果 ， 
遍历 每 个 社区 ， 选 取 每 个 社区 的 中 心 节点 和 一 些 边界 节点 ， 这 
些 边界 节点 之 间 的 边 包含 了 跨 社 区 连接 。 

a) 边界 节 点 {Vmar}: 这 些 节点 是 最 不 确定 且 包含 最 多 信息 
的 ， 所 以 也 包含 着 部 分 的 跨 社区 连接 。 如 公式 (5) 所 示 ， 边 界 
节点 定义 为 社区 中 隶属 度 最 小 的 节点 ， 如 果 一 个 社区 中 包含 多 
个 隶属 度 值 相同 的 节点 则 全 部 标记 为 边界 节点 ， 之 后 使 用 先 验 
信息 指导 这 些 及 节点 的 划分 。 

Vinay (k) = max(MD, (i) (5) 

pb) 中 心 节点 {Vauo}: 社区 中 最 稳定 的 节点 ， 如 公式 (6) 所 
示 ， 中 心 节点 定义 为 社区 中 隶属 度 最 大 的 节点 ， 即 与 该 节点 所 
有 相连 的 节点 中 位 于 本 社区 的 比重 最 大 ， 如 果 有 多 个 节点 都 拥 
有 最 大 的 隶属 度 值 ， 则 选择 没有 与 边界 点 相连 的 节点 作为 中 心 
节点 ， 如 果 都 与 边界 节点 相连 则 随机 选择 隶属 度 最 高 的 其 中 之 


V,» (k) = min(MD, (i)) (6) 
因为 边界 节点 的 不 确定 性 ， 所 以 与 边界 节点 相连 的 节点 真 
实录 属 度 可 能 会 改变 。 其 次 如 图 3-(a) 所 示 是 已 经 选取 好 中 心 节 
点 {hub} 和 边界 节点 {A，C}，{B}。 
2) 询问 规则 
询问 规则 中 ， 需 要 用 先 验 信息 来 指导 纠 错 的 操作 。 遍 历 每 
个 社区 ,两 两 社区 之 间 进 行 比较 ， 如 图 3-(b) 所 示 首 先 将 选择 规 
则 中 两 社区 的 边界 节点 {A, B} 和 {C, B} 所 有 的 邻接 边 进行 标记 ， 
因为 与 跨 社 区 的 连接 相连 的 边 也 是 不 确定 的 。 其 次 如 图 3-(b) 所 
示 根 据 真实 标签 询问 所 选择 的 跨 社区 连接 两 端的 节点 {A, B} 和 
{C，B} 的 成 对 约束 ， 如 果 是 正 约束 则 保留 这 个 连接 ， 同 时 判断 
两 对 边界 节点 所 属 真 实 社区 标签 ， 如 果 与 A 相同 ， 则 断 开 所 有 
已 经 标记 的 与 B 相连 的 边 ; 若 与 B 相同 ， 反之。 经 过 以 上 的 步 
又 ， 如 图 3(c) 所 示 已 经 可 以 成 功 地 将 错误 划分 到 右边 社区 的 B 
节点 纠正 。 
3) 加 强 规则 
为 了 防止 询问 规则 中 断 开 边 两 端的 节点 过 于 稀疏 ， 基 于 规 
则 2， 根 据 边 界 节 点 和 中 心 节点 的 真实 标签 为 已 经 断 开 边 的 节 
点 加 强 连 接 防止 稀疏 。 如 图 3-(d) 所 示 , 已 知 断 边 的 节点 B 和 中 
节点 Vuo 之 间 存 在 must-link, 所 以 将 二 者 连接 , 同 理 将 右边 


心 


| 
KR, F: aa SARAVIA 法 


社区 断 边 的 节点 进一步 加 强 。 加 强 规则 的 产生 是 由 于 个 别 社区 
的 节点 数 较 少 ， 连 接 过 于 稀 琉 会 导致 个 别 节 点 在 断 开 连 接 之 后 
成 为 扳 立 节点 ， 易 将 这 些 节点 错 分 到 其 他 社区 。 这 样 的 加 强 连 
接 可 以 使 社区 的 块 结构 更 加 明显 ， 同 时 可 以 避免 连 边 较 少 的 节 
点 成 为 噪点 也 防止 了 规模 较 小 的 社区 错误 划分 。 此 时 的 社区 结 
构 已 经 较为 清晰 了 ， 再 将 更 新 的 聚 类 中 心 和 重 构 的 网 络 结构 作 
为 下 一 次 K-means 算法 中 距离 欠 代 的 输入 ， 直 到 所 有 节点 到 聚 
类 中 心 的 距离 不 再 变化 停止 迭代 。 


(c) (d) 
图 3 主动 地 半 监 督 社区 划分 过 程 


3 ”实验 分 析 


在 广泛 的 人 工 网 络 和 真实 网 络 中 对 ESCD 方法 进行 了 评估 。 
为 了 检验 ESCD 算法 的 有 效 性 ， 与 现 有 的 应 用 最 广泛 的 几 种 半 
监督 社区 发 现 算法 进行 了 比较 , 包括 Spin FAP, SNMF 方法 
09、CL-ML FRUS, Spin 方法 是 一 种 采用 节点 成 对 约束 的 模 
AY, SNMF 是 一 种 对 称 的 非 负 抢 阵 分 解 模 型 ， 嵌 入 了 隐 含 空间 
的 图 正则 化 , CL-ML 是 在 非 负 和 矩阵 分 解 的 模型 中 加 入 了 先 验 信 
息 的 逻辑 推理 ， 增 强 了 先 验 信息 的 强度 。 采 用 广泛 的 评价 标准 
NMI 对 社区 发 现 的 结果 进行 评价 。 

3.1 评价 标准 

根据 当前 的 划分 结果 Geo ={C,C…C 与 
G={G,G,.…Ck} 对 比 来 判断 社区 发 现 的 准确 性 。 其 中 Gusen 是 当 
前 的 社区 划分 结果 , 共有 个 社区 。 NMI 是 以 真实 社区 结果 为 
标准 对 当前 划分 准确 度 评 价 指标 。NMI (〈 归 一 化 互信 息 ) 表达 
公式 如 下 : 


Ht 


N, 


22 iN, log a 


jj N, 
N) 
(7) 


N, N, 
>, log tN Jo 


NMI= 


3.2 ”实验 设计 
本 文 实验 设计 主要 分 为 两 个 部 分 ， 分 别 在 真实 网 络 和 生成 
网 络 中 对 提出 的 纠 错 式 半 监 督 聚 类 模型 进行 评估 。6 个 真实 网 
络 的 节点 数 N 和 社区 数 K 如 表 1 所 示 。 

表 1 真实 网 络 数据 身 


aint 


数据 集 Karate dolphins football School6 School7 polbooks 
34 69 115 69 69 105 
2 2 12 6 7 3 
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相 比 以 上 六 个 真实 网 络 数据 ， 生 成 网 络 模拟 了 真实 网 络 中 
节点 度 和 社区 大 小 的 无 标 度 性 质 ， 在 聚 类 研究 中 经 常 使 用 。4 
成 网 络 的 常见 参数 如 下 : 网 络 中 的 节点 数目 N; 网 络 中 节点 的 
平均 度 值 k; 最 小 社区 所 拥有 的 节点 数 minc; 最 大 社区 所 拥有 
的 节点 数 maxc; 混合 参数 y, 表示 节点 与 其 他 社区 的 节点 的 连 
接 概率 , y 取 值 越 大 , 说 明 社 区 结构 越 复杂 ,， 聚 类 分 析 越 困难 。 
如 表 2 所 示 , 在 这 里 采用 Kou=7 和 Kou=8 的 GN P28 AK p=0.65 
和 u=0.75 的 LFR 网 络 进行 实验 。 

表 2 生成 网 络 数 据 集 参 数 设 置 


TT 


数据 集 N K Kout u minc Maxc 
GN-7 128 4 7 / 32 32 
GN-8 128 4 8 / 32 32 
LFR-0.65 1000 29 / 0.65 20 50 
LFR-0.75 1000 29 / 0.75 20 50 


3.3 ”实验 结果 
3.3.1 真实 网 络 实验 结果 

如 图 4 所 示 , 在 六 个 广泛 的 真实 社区 对 本 文 方法 进行 评估 ， 
图 中 的 四 条 曲线 分 别 代表 提出 的 算法 与 对 比试 验 的 结果 ， 为 了 
测试 实验 的 稳定 性 ， 对 每 个 方法 进行 十 次 实验 ， 其 中 曲线 上 的 
节点 表示 十 次 实验 结果 的 平均 值 ， 而 纵向 的 直线 表示 十 次 结果 
的 方差 。 从 实验 结果 来 看 ， 提 出 的 方法 加 入 少量 标签 就 可 以 达 
到 很 好 的 性 能 ， 例 如 在 Footballs 社区 中 ， 只 需要 加 入 2.32% 的 
标签 ，NMI 的 值 就 可 以 从 0.921 提升 到 1。 六 个 真实 网 络 的 实 
验 结果 都 可 以 验证 提出 方法 的 有 效 性 和 稳定 性 ， 通 过 在 分 步 距 
离 计 算 中 主动 地 加 入 成 对 约束 ， 可 以 大 大 提升 K-means 算法 的 
准确 性 和 稳定 性 。 


Karate Dolphins 


0.5 è . m . 
0123 45 6 7 8 9 101112 


j fez 签 比 全 ob 标签 比例 (%) 
(a)Karate 网 络 (b) Dolphins 网 络 
105 Football 
1 
0.95 
0.9 
Zoss 
0.8 
0.75 
0:653 4 6 8 o 1 234567 8 910 
标签 比例 (%) 标签 比例 (%) 
(c)Football 网 络 (d) School6 网 络 
School7 Polbook 
0.95 
0.9 
0.85 
三 08 
=0.75 
0.7 
0.65 
0.6 
oS 1 23 4 5 6 7 8 8 10 “0 


2 3 4 
标签 比例 (%) 


(f) Polbooks 网 络 


标签 比例 (%) 
(e)School7 网 络 


图 4 真实 网 络 社区 发 现实 验 结果 


3.3.2 生成 网 络 实验 结果 

为 了 验证 提出 的 ESCD 方法 在 生成 网 络 中 的 有 效 性 ， 
在 GN 网 络 进行 实验 ， 图 5 中 是 十 次 实验 的 平均 结果 。 横 坐标 
加 入 成 对 约束 的 比例 , 纵 坐 标 表 示 NMI 值 , 达到 1 表示 社区 划 
分 结果 与 实际 情况 完全 一 致 。 与 其 他 对 比方 法 相 比 ， 加 入 标签 
比例 相同 时 ， 提 出 的 ESCD 方法 划分 更 加 准确 。 在 GN 网 络 
Kou=7 时 ，ESCD 方法 加 入 2% 的 标签 就 可 以 将 性 能 提升 至 1。 
当 Kour=8 时 ，ESCD 方法 加 入 1% 和 2% 的 标签 时 NMI 值 分 别 
可 以 达到 0.713 和 0.807， 性 能 优 于 其 他 的 半 监 督 算法 。 
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(a) kow=7 (b) kou= 8 
图 5 GN 网 络 社区 发 现实 验 结果 
为 了 进一步 验证 本 文 方法 的 有 效 性 , 在 两 个 LFR 网 络 中 进 
行 测试 。 如 图 6(a) 所 示 ， 提 出 的 方法 和 SNME 表现 都 很 好 ， 可 
以 在 标签 量 很 少 的 时 候 达 到 理想 的 结果 ， 在 加 入 5% 左 右 的 标 


签 时 本 文 方法 超过 了 SNMF 。 
LFR-0.65 LFR-0.75 
1 
08 
= 0.6 
z 
0.4 
0.2 和 信和 人 -HH 
. 0 
0 1 2 3 4 5 0 2 3 4 5 
标签 比例 (%) 标签 比例 (%) 
(a) p= 0.65 (b) p= 0.75 


图 6 LFR 网 络 社区 发 现实 验 结 
3.4 划分 过 程 演示 

本 节 将 以 真实 社区 为 例 呈现 主动 地 纠 错 式 半 监 督 划 分 过 程 ， 
根据 实验 结果 观察 通过 邻接 选择 方式 主动 的 添加 先 验 信息 ， 实 
际 上 是 基于 当前 粗 划 分 结果 对 划分 错误 的 节点 不 断 地 修正 。 在 
Football 中 主要 展现 其 中 几 个 社区 之 间 错 误 划 分 如 何 纠正 , 图 7 
是 Football 在 第 一 次 距离 计算 的 索引 结果 ， 有 6 个 社区 是 完全 
划分 正确 的 ， 主 要 的 划分 错误 集中 在 了 中 间 的 几 个 社区 ， 为 了 
更 直观 的 了 解 算法 的 计算 过 程 ， 截 取 其 中 的 一 部 分 来 对 本 文 算 
法 详细 说 明 。 
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图 7 Football 社区 粗 聚 类 结果 


= SO 


chinaXiv 


录用 稿 


首先 根据 当前 粗 聚 类 结果 ， 两 两 社区 依次 遍历 。 


的 两 个 主要 社区 有 多 个 节点 交错 


图 8 所 示 


张 贤 坤 ， 等 : 主动 地 纠 错 式 羊 监督 聚 类 社区 发 


所 以 只 需 判 断 其 中 一 个 节点 与 中 心 节 点 的 标签 即 可 。 如 图 9(c) 


Wy 


遇 于 同一 社区 。 每 两 个 社区 
能 多 的 判断 不 确定 节点 。 如 
择 规 则 选取 出 这 两 个 衬 


实情 况 中 同 


频 色 的 节 


9 判断 都 会 进行 三 次 ， 尽 可 
图 8 所 示 的 划分 过 程 ， 首 先 根据 先 
区 的 中 心 节点 和 边界 节点 。 根 据 计算 公 


式 得 到 两 个 社区 的 中 心 节点 分 别 是 29 和 50， 为 了 更 直观 地 观 


察 实验 他 过 过 程 ， 在 ` 


界 点 分 别 是 59 和 74,89 (74 5 89 拥有 相同 的 隶属 
接 下 来 根据 真实 标签 询问 节点 59 和 74,89 
X, “等 号 ”表示 两 个 节点 拥有 must-link)， 即 


它们 之 间 没 有 连 
a 所 以 保持 
表示 保持 连接 。 根据 询 j 
有 边 , 但 是 由 于 59 与 它 所 在 社区 内 的 其 
无 须 断 开 边 ， 这 也 更 加 世 


不 紧密 的 节点 。 


最 后 根据 加 强 规则 ， 接 下 来 


8 将 中 心 节点 放大 作为 标记 。 两 个 社区 的 边 
度 值 )。 


红色 的 边 ; {59=89} 属 于 


= 不 
ÆRE 


{59=74}， 并 且 


于 同一 社 


连接 ， 图 中 用 绿色 的 


应 该 断 开 59 与 其 所 在 社区 的 所 
余 节 点 并 无 连接 , 所 以 


50 的 标签 是 否 


{59=741, {59=89} Ly 
与 中 心 节 点 50 的 连接 关系 只 需要 确定 这 三 


社区 的 边界 点 是 与 本 衬 


区 连接 最 


判断 节点 74 和 89 与 中 心 节点 
， 通 过 之 前 的 两 次 查看 真实 标签 ， 
局 逻辑 判断 可 以 得 知 {74=89=59}。 接 下 来 


得 到 了 


个 节点 其 中 之 一 即 


所 示 ， 第 二 次 将 98 和 70 选 为 两 个 社区 的 边界 节点 ， 最 终 节点 
60, 64, 98 都 被 正确 划分 到 右边 的 社区 。 两 个 社区 之 间 的 主动 
纠 错 工作 就 已 经 完成 了 ， 接 下 来 遍历 其 他 社区 ， 在 这 里 不 再 一 
一 说 明 。 


图 9 主动 纠 错过 程 2 


4 ”结束 语 


本 文 在 分 析 了 现 有 聚 类 算法 的 特点 和 不 足 的 基础 上 ， 提 出 
的 ESCD 算法 在 原 有 的 聚 类 算法 中 分 步 计算 距离 ， 每 一 步 中 主 
动 地 选择 不 确定 的 节点 加 入 先 验 信息 ， 通 过 三 个 规则 实现 整理 
复杂 网 路 的 连接 关系 ， 使 得 网 络 的 模块 性 大 大 提升 。 通 过 理论 
分 析 在 真实 数据 集 上 的 实验 表明 ，ESCD 算法 能 够 显著 提高 社 


可 得 到 加 强 的 结果 。 判断 节点 74 和 50, 根据 真实 标签 ， 
二 者 属于 同一 社 BHU 59, 74, 89 都 
与 50 连接 。 在 上 述 Aao ale E 
辑 判 断 节 省 了 大 量 法 可 以 通过 最 少 的 标签 


WE iaa a kil an 


x 发 现 的 准确 性 和 稳定 性 。 


X, 接 下 来 通过 相同 


被 划分 到 了 正确 的 社 
， 如 图 9(a) 


所 示 左 侧 蓝 色 神 


上 区 中 有 三 


60，70 分 别 被 选 为 两 
终 将 64，60 与 70 之 间 连 


时 观察 到 右边 社 


上 区 的 纠 错 
则 分 错误， 第 


一 次 节点 64, 
社区 的 边界 节点 ， 通 过 半 监 督 规 则 ， 最 
目 断 开 与 左 侧 社区 的 连 边 ， 此 


区 中 心 节点 的 真实 标签 与 本 社区 


以 这 里 提醒 了 与 中 心 节 点 的 连 


这 并 不 意味 着 需要 很 多 标签 ， 


接 也 需要 成 对 约束 的 指导 ， 但 是 
于 本 文 的 约束 对 包含 逻辑 推理 


不 相同 ， 所 


在 接 下 来 的 工作 中 ， 将 进一步 考虑 将 该 半 监 督 模型 应 用 在 
社交 网 络 ， 比 如 微 博 等， 而 且 引入 更 多 的 参考 因素 社区 发 现 ， 
节点 重要 性 度量 方法 和 种 子 节 点 的 选择 方式 ， 比 较 引 入 多 个 参 
考 因素 的 算法 对 真实 社区 划分 的 影响 ， 并 考虑 在 算法 中 加 入 深 
度 学 习 对 复杂 的 社区 结构 进行 特征 提取 ， 使 算法 具有 更 高 的 实 
用 价值 。 
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